Amazon QuickSightでサンキー図を表示してみた
はじめに
データアナリティクス事業本部の藤川です。
Amazon QuickSightがサンキー図
(sanky diagram)に対応したので試してみました。
概要
サンキー図を作成するために必要なデータについて
サンキー図を作成するために必要なデータはシンプルです。 例えば、次のようなデータがあれば、下図のようなサンキー図が描けます。
ソース(ディメンション) | 宛先(ディメンション) | 値(メジャー) |
---|---|---|
A | W | 500 |
A | X | 23 |
A | Y | 147 |
参考
- Amazon QuickSight でのビジュアルタイプを使用する - Amazon QuickSight
- Amazon QuickSight でのサンキー図の使用 - Amazon QuickSight
進め方について
e-Stat(政府統計の総合窓口)からデータをダウンロードします。今回使用したデータは「住民基本台帳人口移動報告」の「年報(基本集計)」です。 東名阪各圏の人口の移動状況をQuickSightのサンキー図で可視化してみました。進め方は次の通りです。
- データを準備します。
- データセットを新規作成します。
- 分析を新規作成します。
- サンキー図を作成します。
- フィルターを設定します。
やってみる
データを準備
- 政府統計の総合窓口にアクセスします。
- 「分野」をクリックして開きます。
- 「人口・世帯」の「すべて見る」をクリックします。
- 一覧から「政府統計コード」が「00200523」の行をクリックします。
- 「ファイル」アイコンをクリックします。
- 「年報(基本集計)」にぶら下がっている「年次[xx件]」リンクをクリックします。
- 「2019年」(2021.5.10現在)リンクをクリックします。
- 「表番号」が「2」の行の「DB」ボタンをクリックします。
項目 値 政府統計名 住民基本台帳人口移動報告 政府統計コード 00200523 提供統計名 住民基本台帳人口移動報告 提供分類1 年報(基本集計) 表番号 2 調査年月 2019年 - 「ダウンロード」ボタンをクリックします。
- CSVファイルは、クロス集計表形式ではなく、「列指向形式」でダウンロードしました。
- ヘッダーが必要ですので、「ヘッダの出力」は「出力する」を選んでください。
-
value
列の値が「"-"」である行は、QuickSightへインポートする際にエラーとなりますので、「"0"」に置換すると良いでしょう。「特殊文字の選択」で「0(数字のゼロ)に置き換える」を選択します。項目 値 ダウンロード範囲 全データ ファイル形式 CSV形式(列指向形式) ヘッダの出力 出力する コードの出力 出力する 特殊文字の選択 0(数字のゼロ)に置き換える -
CSVファイルは、2つのファイルに分割されました。
- これら2ファイルの26行目までは不要なため除去しなければなりません。なお、26行目とは限りませんので、必ずファイルを開いて確認してください。
-
27行目以降と28行目以降をそれぞれ取り出し、1ファイルにマージします。さらに、後者からはヘッダーも除去します。
tail +27 FEH_00200523_210506130134.csv > FEH_00200523.csv tail +28 FEH_00200523_210506130139.csv >> FEH_00200523.csv
- CSVファイル(FEH_00200523.csv)を「UTF-8」に変換してください。
データセットを新規作成
- QuickSightを開きます。
- 「データセット」を開きます。
- 「新しいデータセット」ボタンをクリックします。
- 「ファイルのアップロード」をクリックします。
- 先ほどダウンロードしたCSVファイル(FEH_00200523.csv)を選択してください。
- ファイルのアップロードが終了すると、次のダイアログボックスが表示されます。「次へ」ボタンをクリックします。
- 以上で、データセットが作成されたので、「視覚化する」ボタンをクリックして、「分析」ページを開きます。
分析を新規作成
- 次のアイコン(サンキー図)をクリックします。
- 「移動前の住所地」、「全国・都道府県・大都市」を順に選びます。「value」を選びます。
ディメンション(青)とメジャー(緑)は自動的に選択されるため、先に「value」を選んでも問題ありません。
フィルターを設定
データが多過ぎて、線が混み合っていますので、フィルターでデータを絞り込みます。
- 「フィルター」タブを開きます。フィルターを追加するときは、「+」ボタンをクリックします。
- 「時間軸(年次)」、「性別」、「移動前の住所地」、「全国・都道府県・大都市」をフィルターに追加します。
- 各フィルターを設定します。このとき、必ず「適用」ボタンをクリックしてから、「閉じる」ボタンをクリックしてください。
項目 値 時間軸(年次) 2019年 性別 総数 移動前の住所地 東京圏、名古屋圏、大阪圏 全国・都道府県・大都市 東京圏、名古屋圏、大阪圏
サンキー図の完成
2019年における、東名阪各圏の人口の移動状況をQuickSightのサンキー図で可視化できました。
さいごに
AWSの分析サービスとの親和性が非常に高いQuickSightですが、常に進化していて、表現の幅が広がりつつあります。 最小限の構成だと非常に安価ですし、マネージド・サービスなので構築不要です。 アドホックな分析をちょっと試してみたいといったニーズにはベストマッチなのではないでしょうか。 今後のQuickSightの進化に注目したいと思います。